#preferencias humanas

Ranking consciente de jueces para evaluar LLMs sin verdad de campo

Descubre cómo este marco de ranking consciente de jueces mejora evaluaciones de LLMs sin etiquetas de referencia, optimizando fiabilidad y eficiencia.

2026-06-05 · 2 min

Nuevo método conecta representaciones sin recompensa con preferencias en RL offline

Nuevo marco de aprendizaje por refuerzo offline que aprende representaciones sin recompensa y las afina con preferencias humanas, superando a métodos tradicionales en eficiencia.

2026-06-02 · 2 min